%!TEX program = xelatex
% 完整编译方法 1 pdflatex -> bibtex -> pdflatex -> pdflatex
% 完整编译方法 2: xelatex -> bibtex -> xelatex -> xelatex
\documentclass[lang=cn,11pt]{elegantpaper}
\usepackage{cases}

\title{导数与梯度}
\author{eleve11}

% \institute{\href{https://elegantlatex.org/}{Elegant\LaTeX{} 项目组}}

% 不需要版本信息，直接注释即可
% \version{0.07}
% 不需要时间信息的话，需要把 \today 删除。
\date{\today}


% 如果想修改参考文献样式，请把这行注释掉
\usepackage[authoryear]{gbt7714}  % 国标

\begin{document}
\maketitle

% \begin{abstract}
% \noindent
% \end{abstract}

\section{导数}
    首先这个栗子，来自《高等数学》\cite{b}关于切线问题。
    \begin{quote}
        圆的切线可以定义为``与曲线只有一个交点的直线''。但是对于其他曲线，用``与曲线只有一
        个交点的直线''作为切线的定义就不一定合适。例如对于抛物线$y=x^2$，在原点$O$处，两个
        坐标轴都符合上述定义，但是实际上只有$x$轴才是其在点$O$处的切线。
    \end{quote}
    \indent 如图\ref{fig:function}左图，设有曲线$C$以及$C$上一点$M$，在点$M$外令$C$上
    取一点$N$，做割线$MN$，当点$N$沿着曲线$C$接近点$M$时，如果割线$MN$绕点$M$旋转而趋于极
    限位置$MT$，直线$MT$就是曲线$C$在$M$出的切线。其含义也即：弦$MN$长度趋于零
    ，$\angle NMT$也趋于零。\\
    \indent 将曲线$C$放入坐标系，得到函数$y=f(x)$，如图\ref{fig:function}右图，设
    $M(x_0, y_0)$是曲线$C$上的一点，即$y_0=f(x_0)$。根据上述定义，要求$M$出的切线，只要
    得到$M$的斜率就可以了，为此在曲线$C$上令取一点$N(x,y)$，得到割线$MN$的斜率:
    \begin{displaymath}
        \tan \varphi = \frac{y-y_0}{x-x_0} = \frac{f(x)-f(x_0)}{x-x_0}
    \end{displaymath}
    \begin{figure}[htbp]
    	\centering
    	\includegraphics[width=0.9\textwidth]{function.png}
    	\caption{\label{fig:function}}
    \end{figure}
    正如前面描述如何得到切线，当$N$沿着曲线$C$趋于$M$时，$x \longrightarrow x_0$， 如果
    当$x \longrightarrow x_0$时，上述式子极限存在，设为$k$，即：
    \begin{displaymath}
        k= \lim_{x \rightarrow x_0} \frac{f(x)-f(x_0)}{x-x_0}
    \end{displaymath}
    $k$为割线斜率的极限，也即切线的斜率，$k=\tan \alpha$，$\alpha$为切线$MT$的倾角。
    可以看到在\ref{fig:function}右图中，当角$\varphi$趋于$\alpha$时，也即弦$MN$趋于零
    ，也即角$\angle NMT = \varphi - \alpha$趋于零。也即$x-x_0, y-y_0$变化量趋于零 \\
    \indent 上面问题归结于一个极限的问题：
    \begin{displaymath}
        \lim_{x \rightarrow x_0} \frac{f(x)-f(x_0)}{x-x_0}
    \end{displaymath}
    令$\Delta x= x-x_0, \Delta y = y-y_0 = f(x)-f(x_0)$，可得：
    \begin{gather*}
        \lim_{x \rightarrow x_0} \frac{\Delta y}{\Delta x} \\
        \lim_{x \rightarrow x_0} \frac{f(x_0+\Delta x)-f(x_0)}{\Delta x}
    \end{gather*}
    \newtheorem{thm}{定义}  % 在局部定义的，可放导言区
    \begin{thm}[导数]
        设函数$y=f(x)$在点$x_0$处领域内有定义，当自变量$x$在领域内取得增量$\Delta x$，
        相应的应变量取得增量$\Delta y = f(x_0+ \Delta x) - f(x_0)$，如果$\Delta y$
        与$\Delta x$之比当$\Delta x \longrightarrow 0$时的极限存在，那么称函数$y$在点
        $x_0$处可导，并称这个极限为函数$y=f(x)$在点$x_0$处的导数
    \end{thm}
    \indent 在导数基础上来定义偏导数，即固定某些坐标轴，只对某一个坐标轴方向进行求导。
    \begin{thm}[偏导数]
        设二元函数$z=f(x,y)$在点$(x_0, y_0)$处领域内有定义，当$y$固定在$y_0$而$x$在
        $x_0$处有增量$\Delta x$时，相应的函数有增量
        $f(x_0+\Delta x, y_0)-f(x_0, y_0)$。如果
        $\lim_{\Delta x \rightarrow 0} \frac{f(x_0+\Delta x, y_0)-f(x_0, y_0)}{\Delta 0}$存在，那么称此极限为函数$z=f(x,y)$在点$(x_0, y_0)$处对$x$的
        偏导数。
    \end{thm}

\section{梯度}
    有前面对导数，偏导数的定义可以知道，偏导数反应的是函数沿着坐标轴方向的变化率。但是往往只考
    虑到坐标轴反向上的变化率是不够的，例如在机器学习方面，常常会有人举下山坡的例子，也即梯度下
    降。 \\
    \indent 设$l$是$xOy$平面上以$p_0(x_0, y_0)$为始点的一条射线，$e(\cos \alpha,
    \cos \beta)$(其中$\cos \alpha$和$\cos \beta$是方向$l$的方向余弦)是与$l$同方向的单
    位向量(如图\ref{fig:vector})，射线$l$的参数方程为:
    \newenvironment{lcase} % 建立新的环境，用于左括号内多行公式显示
    {\left\lbrace\begin{aligned}}
    {\end{aligned}\right.}
    \begin{equation*}
        \begin{lcase}
            x = x_0 + t \cos \alpha \\
            y = y_0 + t \cos \beta \,
        \end{lcase}
        \quad (t \geq 0)
    \end{equation*}
    \begin{figure}[htbp]
    	\centering
    	\includegraphics[width=0.4\textwidth]{vector.png}
    	\caption{\label{fig:vector}}
    \end{figure}
    设函数$z=f(x,y)$在点$P_0(x_0, y_0)$的某个邻域$U(P_0)$内有定义，
    $P(x_0 + \cos \alpha, y_0 + \cos \beta)$是$L$上的令一点，且$P \in U(P_0)$，
    如果函数增量$f(x_0 + \cos \alpha, y_0 + \cos \beta) - f(x_0, y_0)$与$P$到
    $P_0$的距离$|PP_0|=t$的比值：
    \begin{displaymath}
        \frac{f(x_0 + \cos \alpha, y_0 + \cos \beta) - f(x_0, y_0)}{t}
    \end{displaymath}
    当$P$沿着$l$趋于$p_0$($t_0 \rightarrow 0^+$)时的极限存在，那么称此极限为函
    数$f(x,y)$在点$P_0$沿反向$l$的方向导数，记作
    $\frac{\partial f}{\partial l} \arrowvert _{(x_0, y_0)}$，即
    \begin{equation*}
        \frac{\partial f}{\partial l} \arrowvert _{(x_0, y_0)} =\lim_{t
        \rightarrow 0^+} \frac{f(x_0 + t \cos \alpha, y_0 + t \cos \beta) -
        f(x_0, y_0)}{t}
    \end{equation*}
    \indent 由上述可知，反向导数是函数在点沿某方向的变化率。若函数$f(x, y)$在点
    $p(x_0, y_0)$的偏导数存在，
    $\overrightarrow{e_l} = \overrightarrow{i} = (1,0)$，则
    \begin{equation*}
        \frac{\partial f}{\partial l} \arrowvert _{(x_0, y_0)} = \lim_{t
        \rightarrow 0^+} \frac{f(x_0 + t, y_0) - f(x_0, y_0)}{t}
    \end{equation*}
    又若$\overrightarrow{e_l} = \overrightarrow{j} = (0,1)$，则
    \begin{equation*}
        \frac{\partial f}{\partial l} \arrowvert _{(x_0, y_0)} = \lim_{t
        \rightarrow 0^+} \frac{f(x_0, y_0 + t) - f(x_0, y_0)}{t}
    \end{equation*}
    但反之，若$\overrightarrow{e_l} = \overrightarrow{i}$，$\frac{\partial f}{\partial l} \arrowvert _{(x_0, y_0)}$存在，则$\frac{\partial f}{\partial x} \arrowvert _{(x_0, y_0)}$未必存在，例如$z=\sqrt{x^2+y^2}$在坐标系原点处的
    方向导数为$\frac{\partial f}{\partial l} \arrowvert _{(x_0, y_0)}=1$，而偏导数
    不存在。
    \newtheorem{Law}{定理}  % 在局部定义的，可放导言区
    \begin{Law}
        如果函数$f(x,y)$在点$P_0(x_0, y_0)$出可微分，那么此函数在该点沿着任一方向的方向
        导数存在，且有
        \begin{equation*}
            \frac{\partial f}{\partial l} \arrowvert _{(x_0, y_0)} =
            f(x_0, y_0)\cos \alpha + f(x_0, y_0)\cos \beta
        \end{equation*}
        其中$\cos \alpha$和$\cos \beta$是方向$l$的方向余弦。
    \end{Law}
    \begin{thm}[梯度]
        在二元函数的情况下，设函数$f(x,y)$在平面$D$区域内有连续一阶偏导数，则对于每一点
        $P_0(x_0, y_0) \in D$，都可定出一个向量
        $f_x(x_0,y_0)\overrightarrow{i}+f_y(x_0,y_0)\overrightarrow{j}$，这个向
        量称为函数$f(x,y)$在点$P_0$的梯度，记作$\textrm{\textbf{grad}}f(x_0,y_0)$
        或$\bigtriangledown f(x_0,y_0)$，即
        \begin{equation*}
            \textrm{\textbf{grad}}f(x_0,y_0) = \bigtriangledown f(x_0,y_0) =
            f_x(x_0,y_0)\overrightarrow{i}+f_y(x_0,y_0)\overrightarrow{j}
        \end{equation*}
        其中$\bigtriangledown = \frac{\partial}{\partial x} \overrightarrow{i}
        + \frac{\partial}{\partial y} \overrightarrow{j}$称为向量微分算子，
        $\bigtriangledown f = \frac{\partial f}{\partial x} \overrightarrow{i}
        + \frac{\partial f}{\partial y} \overrightarrow{j}$
    \end{thm}
    所以为什么要有梯度这个概念呢？回到下山坡，为了尽可能快到达山脚/山谷，我们怎么走呢？
    我们应当选择每次下降最快(也即你所在点的所有往下的方向上，变化率最大的方向)的那条路，
    这也意味你每次下降都是最快的。那么什么时候梯度下降最快呢？\\
    \indent 如果函数$f(x,y)$在点$P_0(x_0, y_0)$可微分，
    $e_l=(\cos \alpha, \cos \beta)$是与方向$l$同向的单位向量。那么
    \begin{equation*}
        \frac{\partial f}{\partial l} \arrowvert _{(x_0, y_0)} =
        f(x_0, y_0)\cos \alpha + f(x_0, y_0)\cos \beta =
        \textrm{\textbf{grad}}f(x_0,y_0) \bullet \overrightarrow{e_l}
        = |\textrm{\textbf{grad}}f(x_0,y_0)| \cos \theta
    \end{equation*}
    上式表明了函数在$P_0$点方向导数与梯度之间的关系，
    其中$\theta$为梯度向量与单位向量$\overrightarrow{e_l}$的夹角。我们很容易就知道什么
    情况下，变化最快了，那就是与单位向量相同或相反方向时，也即$\cos \theta = \pm 1,
     \theta = 0^\circ / 180^ \circ$。在梯度下降中，我们经常会在梯度前加个负号，这是我们
     算方向导数默认$\theta$角是零度，这是一个向上的方向，所以为了向下就需要要反向。\\


% \nocite{*}

% 如果想修改参考文献样式（非国标），请把下行取消注释，并换成合适的样式（比如 unsrt，plain 样式）。
% \bibliographystyle{aer}
% \bibliography{wpref}
\newpage
\begin{thebibliography}{99}
    \bibitem{b} 同济大学数学系. 高等数学,第七版 (2014)
\end{thebibliography}

\end{document}
